Pagina iniziale | Navigazione |
Google

Qualità dei dati

Table of contents
1 Definizione di qualità
2 Dimensioni della qualità
3 Fonti di errore
4 Procedure di controllo e correzione
5 Tempi e costi
6 Link correlati

Definizione di qualità

Il concetto di qualità non è semplice da definire. L'attività degli statistici si concentra spesso sulle proprietà delle stime statistiche, la qualità delle decisioni prese di fronte all'incertezza, l'adattamento dei modelli statistici. Utilizzando concetti come errore standard, distorsione, bontà di adattamento ed errore nei test di ipotesi, sono state costruite varie metodologie per la stima e l'analisi nei quali la qualità dei dati gioca un ruolo centrale.

Il termine qualità è arrivato ad assumere un significato più ampio nell'ambito di organizzazioni, enti, aziende. Il meccanismo della Gestione della Qualità Totale (Total Quality Management, TQM) e altre filosofie di gestione hanno focalizzato sulla convenienza per gli utenti dei prodotti e servizi finali, hanno accentuato il bisogno di costruire la qualità intorno ai processi di produzione e di distribuzione, e hanno sottolineato l'importanza della complessità richiesta in tali processi al fine del miglioramento del prodotto e servizio finale. La definizione e la gestione della qualità nell'organizzazione statistica sono discusse in diversi documenti presentati all' Internetional Conference on Survey Measurement and Process Quality 1995 (Liberg (1997), deLeeuw and Collins (1997), Dippo (1997), Morganstein and Marker (1997), Colledge and March (1997) e anche in Collins and Sykes (1999). Per ulteriori approfondimenti si può anche vedere Hansen, Hurvitz and Pritzker (1967).

Se accettiamo che le esigenze degli utenti dovrebbero essere il fattore principale nella definizione delle attività, allora si può definire il concetto di qualità come fondamentale nel processo di produzione dei dati statistici. Ma, poiché un ente statistico, ha molti e diversi utenti, e ognuno può fare un diverso uso delle informazioni statistiche, tutto ciò non fornisce una definizione operazionale. Tuttavia, riconosce una considerazione più sistematica delle più importanti dimensioni di questo concetto più generale di qualità, un concetto che chiaramente si estende oltre le preoccupazioni tradizionali dello statistico.

La qualità dei dati statistici è pensata in termini di rilevanza, accuratezza, tempestività e accessibilità dei dati senza considerare a cosa si riferiscono esattamente queste dimensioni della qualità. Queste definizioni si incontrano frequentemente nei documenti riguardanti la qualità dei dati nei sistemi di informazione, anche con un diverso significato rispetto al contesto della statistica. Non c'è alcuna discussione su come ottenere o verificare un adeguato livello di qualità. Per ragioni apparenti, la qualità non è una caratteristica intrinseca dei dati statistici, ma dipende fortemente dalle specifiche condizioni dell'utilizzo dei dati.

Per dare una definizione della qualità possiamo utilizzare la definizione proposta nelle norme ISO 8402 - 1984: Il possesso della totalità delle caratteristiche che portano al soddisfacimento delle esigenze, esplicite o implicite, dell'utente. Questa definizione evidenzia due punti molto importanti: il soggetto che usufruisce della qualità è l'utente al quale è rivolto il bene o servizio; la qualità del bene o servizio consiste nel possesso di determinate caratteristiche.

È comodo anche evidenziare che le caratteristiche di qualità di un prodotto (informazione statistica) possono essere in buona parte ottenute migliorando il processo (procedimento che dall'informazione "grezza" raccolta sulle unità statistiche conduce alle stime riguardanti la popolazione oggetto) di produzione.

Generalmente, la "discussione di qualità" in statistica si basa su quattro maggiori caratteristiche di qualità della fonte dei dati statistici:

  • rilevanza, si riferisce agli argomenti e i concetti statistici utilizzati;
  • accuratezza delle stime, riguardante la vicinanza dei valori stimati ai valori veri (ma sconosciuti) della popolazione;
  • tempestività (puntualità / regolarità) di divulgazione, si riferisce al tempo trascorso tra osservazione / raccolta dati e dati/ validità dell'output;
  • accessibilità dei dati e chiarezza delle informazioni offerte, considerando i requisiti di facile accesso ai dati e flessibilità nell'uso dei dati.

A queste si aggiungono altre caratteristiche della qualità che ne aumentano l'importanza:
  • confrontabilità, che punta a confronti attendibili di statistiche accessibili attraverso lo spazio, tra domini tematici e nel tempo;
  • coerenza, implica relazioni chiare e semplici tra corpi di dati, o statistiche.

Infine, in termini di versatilità in un campo di contesti e situazioni di utilizzo dei dati secondario si potrebbe aggiungere un'altra caratteristica della qualità:
  • completezza, afferma che, per domini con dati disponibili, le offerte statistiche riflettono i bisogni e le priorità espresse dagli utenti.

Vale la pena notare che molte importanti proprietà delle informazioni statistiche non sono visibili agli utenti senza l'utilizzo di informazioni supplementari (o metadati), cioè la rilevanza delle informazioni non può essere visibile senza informazioni sui sottostanti concetti, classificazioni e metodi utilizzati. Soltanto tempestività e accessibilità sono direttamente osservabili dagli utenti.

A queste dimensioni se ne possono aggiungere ulteriori quattro, che riguardano soprattutto il processo di produzione: regolarità, chiarezza, verificabilità, praticabilità.

Dimensioni della qualità

Rilevanza

La rilevanza di informazioni statistiche rispecchia la conoscenza delle reali esigenze degli utenti. In altre parole, la si può definire come la capacità dell'informazione di soddisfare le esigenze conoscitive degli utenti. È interessata a controllare se le informazioni disponibili fanno luce sui problemi di maggiore importanza degli utenti; si cerca di tener conto non solo le esigenze attuali degli utenti, ma anche di eventuali loro esigenze future. La stima della rilevanza è, comunque, un argomento soggettivo dipendente dalle varie esigenze degli utenti.

Accuratezza

L'accuratezza delle informazioni statistiche è il grado di corrispondenza tra la stima ottenuta dall'indagine e il vero (ma ignoto) valore della caratteristica in oggetto nella popolazione obiettivo. È descritta in termini di errori nelle stime statistiche ed è tradizionalmente scomposta in componenti di distorsione (errore sistematico) e di varianza (errore casuale). Può anche essere descritta in termini delle maggiori fonti di errore che potenzialmente causano in accuratezza; invece, una misura dell'accuratezza viene fornita dall'errore totale.

Tempestività e puntualità

La tempestività delle informazioni statistiche è la capacità di produrre i risultati in tempi ravvicinati rispetto all'esecuzione dell'indagine. In altre parole, è l'intervallo di tempo che intercorre tra il momento della diffusione dell'informazione prodotta e l'epoca di riferimento della stessa. Questa dimensione è strettamente connessa alla necessità di disporre di dati aggiornati e quindi va valutata con riferimento al fenomeno osservato ed alle esigenze degli utilizzatori. A differenza dell'accuratezza, la tempestività può essere direttamente osservata dagli utenti.

Un altro possibile indicatore della tempestività è il tempo trascorso tra l'incarico assunto per l'indagine e la data di pubblicazione dei risultati.

Accessibilità

L'accessibilità delle informazioni statistiche si riferisce alla semplicità per l'utente di reperire, acquisire e comprendere l'informazione disponibile in relazione alle proprie finalità. Queste caratteristiche sono influenzate dai mezzi di diffusione dei risultati ottenuti. Molti aspetti di accessibilità sono determinati dalle politiche di divulgazione e dai sistemi di distribuzione. La gestione dell'accessibilità necessita di quattro aspetti principali:

  1. sistemi di "catalogo" ben indicizzati che permettono di reperire facilmente le informazioni e assistere gli utenti nel localizzarle;
  2. sistemi corporativi di distribuzione delle informazioni attraverso opportuni canali che soddisfano le esigenze degli utenti;
  3. programmi che consentono di estrarre le informazioni di interesse per gli utenti sia la copertura delle informazioni statistiche dai programmi individuali nei sistemi di catalogo che l'uso di appropriati sistemi di distribuzione;
  4. strumenti che possono contribuire alla soddisfazione degli utenti.

Confrontabilità

La confrontabilità è la possibilità di confrontare nel tempo e nello spazio le statistiche riguardanti il fenomeno di interesse. Il grado di confrontabilità è influenzato, oltre che dalle modificazioni concettuali che possono intervenire nel tempo e nello spazio, anche da cambiamenti intervenuti nelle definizioni e/o nelle caratteristiche operative adottate dal processo di produzione dell'informazione. È sul controllo di queste ultime che bisogna concentrarsi per aumentare al massimo la confrontabilità dell'informazione prodotta.

Coerenza

La coerenza delle informazioni statistiche corrisponde alla possibilità di combinare le inferenze semplici in induzioni più complesse. Per informazioni prodotte con diversa periodicità, le statistiche possono essere considerate coerenti fintantoché basate su definizioni, classificazioni e standard metodologici comuni. In questo caso le inferenze possibili all'utente saranno più facilmente interrelate o, perlomeno, non risulteranno in contrasto tra loro.

Completezza

La completezza delle informazioni statistiche è una caratteristica trasversale ai singoli processi e consiste nella capacità di questi integrarsi per fornire un quadro informativo soddisfacente del dominio di interesse. A loro volta i domini per i quali sono rese disponibili statistiche dovrebbero riflettere le necessità e le priorità espresse dagli utenti dell'ente statistico.

Regolarità

La regolarità delle informazioni statistiche riguarda la diffusione dei dati ed indica la frequenza con cui l'indagine è ripetuta ed i dati sono resi disponibili. Non esiste una frequenza ottimale, ma essa va valutata alla luce del fenomeno considerato.

Chiarezza

La chiarezza delle informazioni statistiche si riferisce alla disponibilità di documentazione appropriata relativa alle varie caratteristiche e fasi dell'indagine ed eventualmente la possibilità di ottenere assistenza nell'utilizzo ed interpretazione dei dati.

Verificabilità

La verificabilità delle informazioni statistiche si riferisce alla necessità che una procedura preveda anche le istruzioni volte a definire i metodi, gli strumenti e le informazioni che consentono di controllare l'applicazione.

Praticabilità

La praticabilità delle informazioni statistiche definisce il grado di compatibilità delle procedure con il contesto legale e culturale entro il quale devono essere applicate e si riferisce anche all'esistenza di chiarimenti adeguati su come applicare le regole e come affrontare particolari problemi.

Anche se non esplicitamente compresa tra le caratteristiche della qualità, si ritiene utile aggiungere a queste anche la caratteristica di tutela della riservatezza degli utenti. Essa corrisponde alla garanzia dell'anonimato per ogni soggetto che ha fornito le informazioni utili alla conduzione dell'indagine. La mancata garanzia di questa caratteristica, anche se non legata immediatamente alla qualità dell'informazione, si ripercuote negativamente sull'immagine di credibilità dell'ente statistico e, in questo modo, si pregiudica la sua possibilità di rilevare dati affidabili.

Fonti di errore

Gli errori presenti in un insieme di dati possono essere dovuti ad una qualunque delle fasi di acquisizione e messa a punto delle informazioni (raccolta, revisione, codifica, registrazione). Per questo motivo, mentre tradizionalmente il processo di controllo e correzione avveniva in un momento successivo alla fase di registrazione dei dati, la tendenza attuale è quella di spostare il controllo dei dati il più possibile vicino alla fase di raccolta delle informazioni presso le unità, in modo da rendere più facile il reperimento di informazioni corrette dove si verifichino situazioni non compatibili o anomale. Sono state sviluppate tecnologie per l'integrazione del controllo e correzione dei dati con le fasi di intervista o di registrazione, in modo da eliminare, o in ogni caso minimizzare, la parte di errori attribuibile ad errori di compilazione o registrazione dei modelli (che rappresentano generalmente la parte più consistente del totale degli errori). Alcune tipologie di errori vengono corrette contemporaneamente alla fase di intervista o di registrazione, producendo una migliore qualità finale dei dati ed un risparmio nei tempi e nei costi connessi alle fasi successive di controllo dei dati.

In generale, una variabile rilevata in una unità statistica è affetta da errore quando il suo valore non corrisponde al valore vero che essa presenta in quella unità. È evidente che la presenza di errori, di qualunque natura, può provocare distorsioni nella distribuzione delle variabili considerate, nelle stime finali dei dati e in tutte le analisi statistiche effettuate sui dati non corretti.

Gli errori da cui possono essere affette le variabili possono essere classificati con diversi criteri. Innanzitutto, si fa la distinzione tra errori variabili e distorsioni:

Un'altra distinzione viene fatta in base al livello a cui essi si verificano, cioè si fa la distinzione tra errori campionari ed errori non campionari:
  • gli errori non campionari sono provocati da tutte le possibili imprecisioni e in accuratezze commesse o subite durante un'indagine. Questi errori sono attribuibili a problemi nell'organizzazione del processo di produzione dell'informazione statistica, all'intervistato (che rifiuta di rispondere, fornisce un dato errato volontariamente o involontariamente, ecc.), all'intervistatore (carenza nell'addestramento, influenza dell'intervistatore, ecc.), alla tecnica di intervista (faccia a faccia, postale, telefonica, ecc.), alle caratteristiche del modello (lunghezza, complessità, terminologia, ecc.), a problemi nelle fasi di codifica e registrazione dati.
  • gli errori campionari dipendono sostanzialmente dalla circostanza che non tutta la popolazione, ma soltanto una porzione di essa (il campione) è soggetto a rilevazioni (errori variabili di campionamento). Questi errori possono quindi essere attribuiti esclusivamente all'effetto del caso, al disegno campionario, alla tecnica di campionamento o allo stimatore utilizzati in una data indagine statistica, e interessano solo le stime.

Gli errori campionari e non campionari concorrono nel determinare l' errore totale. L'errore totale è una misura dell'accuratezza ed è inteso come errore quadratico medio dello stimatore di interesse y dal vero valore nella popolazione Y, calcolato rispetto al valore assunto da y per tutti i possibili campioni che possono essere generati a partire dalla popolazione di interesse. Bisogna precisare che la possibilità di calcolare l'errore totale è assolutamente ipotetica. Infatti, oltre a non conoscere il valore vero della caratteristica di interesse nella popolazione, normalmente si dispone di un solo valore della y, corrispondente a quello calcolato sulle unità statistiche misurate e non del valore rispetto a tutti i possibili campioni. Tuttavia, il concetto di errore totale è utile per chiarire, dal punto di vista concettuale, quali sono le caratteristiche desiderabili per l'informazione disponibile dal punto di vista della sua accuratezza.

Il trattamento della componente non campionaria dell'errore è reso più complesso dalle difficoltà connesse sia alla sua individuazione sia alla determinazione e rimozione delle cause che l'hanno generata. Il processo di controllo e correzione dei dati riguarda i soli errori non campionari presenti nei dati stessi.

Un'ulteriore distinzione viene fatta tra errori sistematici ed errori casuali (o stocastici).

  • Si dicono errori sistematici quegli errori la cui origine è da attribuirsi a difetti strutturali o organizzativi del processo di produzione dell'informazione statistica, alla struttura del modello o al sistema di registrazione adottati, e si manifestano maggiormente come deviazioni sistematiche dal valore vero di una o più variabili rilevate. La loro presenza può essere segnalata da particolari frequenze di valori anomali, incongruenze o valori fuori dominio nelle variabili rilevate.
  • Si dicono errori casuali o stocastici quegli errori la cui origine è da attribuirsi a fattori aleatori non direttamente individuabili.

Inoltre, gli errori da cui può essere affetto un insieme di dati possono essere distinti in mancate risposte totali e mancate risposte parziali.
  • Si ha una mancata risposta totale quando una certa unità statistica inclusa nella rilevazione non fornisce risposta ad alcuno dei quesiti previsti nel modello. La sua presenza può essere dovuta a varie cause: errore di lista, non reperibilità dell'unità statistica nella rilevazione, rifiuto di rispondere, incapacità di rispondere, ecc.
  • Si ha una mancata risposta parziale quando per una certa unità statistica inclusa nella rilevazione non è disponibile l'informazione relativa ad un sottoinsieme dei quesiti previsti nel modello. Le mancate risposte parziali sono composte da due componenti: valori mancanti e valori errati. La prima componente è dovuta prevalentemente a problemi in fase di compilazione del modello, consistenti o in una cattiva interpretazione dei quesiti o delle regole di compilazione da parte del rispondente e/o del rilevatore, oppure nel rifiuto da parte del rispondente. La seconda componente, oltre ai problemi di compilazione, risente in modo particolare di problemi in fase di registrazione.

La presenza dei valori errati può dar luogo, e può essere segnalata da valori fuori dominio, valori anomali, incompatibilità fra risposte nello stesso modello:
  • il valore di una variabile rilevato su una data unità della popolazione si dice fuori dominio quando non appartiene ad un insieme predefinito di valori ammissibili;
  • una data unità statistica viene detta anomala (outlier) quando essa presenta caratteristiche significativamente diverse da quelle della maggior parte delle unità;
  • in una unità rispondente sono presenti incompatibilità se i valori di una o più variabili in essa rilevate contraddicono predefinite regole di natura logica e/o relazioni di tipo matematico.

La distinzione tra la mancata risposta totale e la mancata risposta parziale è dovuta a volte a considerazioni di tipo soggettivo, nel senso che dipende da una "soglia di accettabilità" per i modelli fissata volta per volta dalla rilevazione. Questa soglia viene generalmente stabilita sulla base del contenuto informativo dei modelli in rapporto agli obiettivi conoscitivi dell'indagine. Sia le mancate risposte totali che le mancate risposte parziali possono essere di natura sistematica o stocastica. Infine, la distinzione tra le mancate risposte parziali e le mancate risposte totali è che le prime hanno bisogno di una fase di individuazione, che non è necessaria per le seconde. E necessaria, però, una fase di analisi statistica per entrambe allo scopo di: valutare e documentare l'entità del fenomeno; individuare le cause che lo hanno prodotto; utilizzare le tecniche e le metodologie più appropriate per la prevenzione e il recupero delle situazioni di errore.

Un aspetto importante del problema dell'individuazione e della correzione degli errori riguarda la necessità, sempre più sentita in termini non solo statistici ma anche e soprattutto di contenuto delle informazioni prodotte e rilasciate all'utente, di produrre dati non solo completi (cioè privi di mancate risposte e incongruenze interne), ma anche e soprattutto il più possibile corrispondenti al vero. In questo senso la ricerca e la correzione degli elementi errati vanno viste come operazioni attraverso cui, a fronte di una situazione di incertezza, vengono poste in atto tecniche di recupero e di ripristino dell'informazione "vera".

Individuazione e correzione delle mancate risposte parziali

Poiché le componenti delle mancate risposte parziali sono diverse, anche le tecniche utilizzate per la loro localizzazione ed, eventualmente, la loro correzione saranno diverse. Iniziamo con il dire che la fase di localizzazione non è richiesta per i valori mancanti, ma può essere molto complessa per gli altri tipi di errori (incompatibilità e valori anomali).

La localizzazione delle risposte errate in un insieme di dati statistici è basata su diversi tipi di controlli (o regole o edit), che possono essere classificati in tre categorie principali:

  1. controlli di consistenza: verificano che prefissate combinazioni di valori assunti da variabili rilevate in una stessa unità soddisfino certi requisiti (regole di incompatibilità).
  2. controlli di validità o di range: verificano che i valori assunti da una data variabile siano interni all'intervallo di definizione della variabile stessa.
  3. controlli statistici: utilizzati per isolare quelle unità statistiche che presentano, per alcune delle variabili in esse contenute, valori che si discostano in modo significativo dai valori che le stesse variabili assumono nel resto delle unità campionarie o rispetto ad una rilevazione precedente. Questi valori sono con alta probabilità errati, ma l'asserzione della loro non correttezza necessita di ulteriori e approfondite verifiche.

I controlli di consistenza vengono utilizzati per la costruzione dei piani di incompatibilità. Per "piano di incompatibilità" si intende un insieme di vincoli non ridondanti e non contraddittori che devono essere contemporaneamente soddisfatti da ogni unità statistica affinché l'informazione corrispondente possa essere considerata corretta. Le regole che compongono un piano di incompatibilità possono essere distinti in:
  • regole formali, che derivano dalla struttura del modello, cioè direttamente dalle norme di compilazione e dai "percorsi interni" del modello;
  • regole sostanziali, che derivano da considerazioni di tipo statistico - matematico, o da conoscenze specifiche a priori del fenomeno oggetto di rilevazione.

La natura delle regole (sia formali che sostanziali) di un piano di incompatibilità dipende dal tipo di variabili (qualitative o quantitative) oggetto di verifica.

Una volta individuati i record i cui valori violano uno o più vincoli del piano di incompatibilità, il problema diventa la localizzazione delle variabili responsabili di tale violazione: sono solo queste, infatti, le variabili i cui valori devono essere considerati errati (cioè mancanti) e quindi corretti.

L'insieme degli controlli statistici costituiscono la base per le procedure di localizzazione dei valori anomali (outlier) e dei valori sospetti. La presenza per una variabile di valori anomali dovuti a risposte errate è spesso un efficace indicatore di presenza di errore sistematico per quella variabile. Inoltre, questi valori, potendo avere un impatto considerevole sulle statistiche e sulle stime calcolate sui dati, se non opportunamente corretti, possono produrre delle notevoli distorsioni sui risultati finali dell'indagine.

L'origine degli outlier può essere dovuta a errori di misura commessi in una qualunque delle fasi della rilevazione, ad errata interpretazione del modello, ad errata trascrizione dei dati, ma anche alla variabilità intrinseca del fenomeno. È quindi importante verificare se questi valori corrispondono a risposte errate oppure a dati reali.

La localizzazione degli outlier avviene mediante la determinazione di intervalli di accettazione al di fuori dei quali una unità statistica è da considerare anomala e quindi da sottoporre a controllo ed, eventualmente, a correzione.

La determinazione degli intervalli di accettazione può essere: empirica, se i limiti degli intervalli di accettabilità sono determinati dallo statistico sulla base della distribuzione della variabile stessa (o di una sua funzione) nella popolazione di riferimento; automatica, quando i limiti di accettabilità sono determinati sulla base di algoritmi implementati in programmi software. Generalmente, i valori anomali per una certa variabile osservata sono individuati calcolando le distanze relative di ogni unità dal centro dei dati (considerati nel loro complesso o per domini), e determinando un valore di soglia oltre il quale le unità sono da considerare sospette, e quindi si necessita di ulteriori verifiche.

Correzione degli errori

Dopo aver individuato i record contenenti valori errati, e quindi non accettabili, e le variabili responsabili di tale non correttezza, si pone il problema della loro modifica in modo da riportare il record nella condizione di accettabilità rispetto ai criteri (piano di incompatibilità o piano di localizzazione dei valori anomali) utilizzati. Le procedure esistenti per questa operazione possono essere classificati secondo diversi punti di vista.

Una prima distinzione avviene tra tecniche di correzione di tipo micro e di tipo macro. Le prime prevedono il controllo di tutti i record presenti nel data set e la correzione di tutti quelli che hanno determinato l'attivazione di un qualsiasi edit. L'approccio macro, invece, prevede la verifica e l'eventuale correzione delle sole unità che incidono maggiormente sulle stime finali dei dati. Nell'ambito dei metodi di tipo macro distinguiamo fra tecniche del macroediting e tecniche di tipo selettivo. Entrambe sono di tipo interattivo, cioè prevedono che i record errati, o con alta probabilità di esserlo, vengano corretti sulla base dell'intervento diretto dell'operatore, il quale provvede a rimuovere l'errore mediante verifica del modello cartaceo o, dove possibile, mediante reintervista.

Le tecniche di correzione di tipo micro, invece, possono essere di tipo sia interattivo sia automatico. I metodi rientranti nel primo tipo possono essere utilizzati in contesti sia interamente interattivi (in cui cioè anche la determinazione degli errori avviene attraverso l'interazione fra dati ed esperto), sia in ambiti parzialmente automatici (in cui cioè l'individuazione delle componenti errate nei record avviene attraverso l'utilizzo di software automatico in cui sono implementate le regole di controllo). In quest'ultimo caso si parla di procedure di controllo e correzione di tipo misto.

Correzione dei valori anomali

Dopo aver individuato le unità in cui una o più variabili presentano valori anomali, esistono due possibili alternative: escludere i valori anomali dalle elaborazioni successive e dal calcolo delle stime finali; verificare se gli outlier individuati corrispondono o meno a situazioni errate, cioè sono dovuti a errori di compilazione o di registrazione, o se invece corrispondono alla situazione reale del rispondente rispetto al carattere rilevato. Questo tipo di analisi può essere solo di tipo interattivo, e può consistere nella revisione dei modelli cartacei (dove disponibili) o dei record corrispondenti, oppure, dove praticabile, nella reintervista del rispondente. Nel caso in cui i valori anomali corrispondano alla reale situazione dell'unità rispondente, trattandosi non di errori, ma di valori estremi, è necessario verificare se essi corrispondono o meno ad unità influenti, cioè se la loro inclusione o esclusione ha o meno un impatto importante sulle stime.

Nel primo caso (esclusione totale degli outlier) possono essere introdotte gravi distorsioni nei risultati finali del processo di produzione dell'informazione statistica dal momento che, se gli outlier corrispondono a valori reali, si rinuncia a informazioni in ogni caso corrette, che rappresentano modalità possibili dell'evolversi del fenomeno in oggetto. Questa soluzione è accettabile solo nel caso in cui gli outlier corrispondano ad osservazioni errate e non influenti (cioè con trascurabile impatto sulle stime).

Nel secondo caso, al controllo interattivo possono seguire le seguenti operazioni:

  1. in fase di editing, imputazione dei valori anomali corrispondenti a risposte errate;
  2. trattamento dei valori anomali dovuti al reale evolversi del fenomeno (cioè degli outlier corrispondenti a valori corretti) a livello di stima.

La prima operazione può avvenire in due modi distinti, a seconda del tipo di verifica effettuata sui valori anomali: se il controllo interattivo avviene mediante reintervista oppure se l'outlier è dovuto ad un errore di registrazione, la correzione del dato avviene contestualmente a questa fase; se l'outlier è dovuto ad un errore di compilazione e non è possibile ricontattare il rispondente, analogamente a qualunque altro tipo di errore, questi valori possono essere considerati errori a tutti gli effetti e, quindi, sottoposti a imputazione mediante uno qualunque dei metodi esistenti per la correzione degli errori (interattiva, automatica, deterministica o probabilistica).

La seconda operazione, che prevede il trattamento degli outlier a livello di calcolo della stima finale, introduce normalmente distorsioni negli stimatori utilizzati. Esistono tre approcci al trattamento degli outlier in fase di stima:

  • modifica dei valori degli outlier;
  • determinazione per gli outlier di nuovi pesi che tengano opportunamente conto dell'impatto che le unità anomale hanno sul fenomeno nel suo complesso;
  • utilizzo di tecniche di stima robuste, cioè poco sensibili alla presenza nei dati di valori anomali.

Trattamento delle mancate risposte totali

La presenza delle mancate risposte totali nei dati è un problema comune a tutte le indagini: tutti gli strumenti adottabili per la prevenzione di tale fenomeno possono solo ridurne l'intensità, ma non riescono in ogni caso ad eliminarne del tutto la presenza.

Le mancate risposte totali hanno due effetti sui risultati finali: riducono la quantità di informazione disponibile (nel caso di indagini campionarie, attraverso la riduzione della numerosità campionaria, viene prodotto un incremento del relativo errore di campionamento); introducono distorsioni nelle stime quando il meccanismo che le genera è non casuale.

Il trattamento delle mancate risposte totali ha lo scopo di prevenire le distorsioni che la loro presenza può provocare sui risultati finali del processo di produzione dell'informazione statistica. Questo trattamento può avvenire a tre livelli: in fase di rilevazione, in fase di editing oppure in fase di stima finale. Nel primo caso si cerca di ridurre il fenomeno della mancata risposta totale prevedendo delle sostituzioni per le unità eventualmente non rispondenti. Nel secondo caso, le mancate risposte totali vengono sottoposte a integrazione analogamente a quanto avviene per le mancate risposte parziali. Nel terzo caso, il problema consiste nell'eliminazione o nella riduzione della distorsione prodotta dalla presenza di mancate risposte totali nelle stime finali attraverso l'utilizzo di opportuni pesi correttivi.

Rilevazione

Nel caso di indagini campionarie, le unità non rispondenti possono essere sostituite direttamente in fase di rilevazione con altre unità precedentemente selezionate casualmente dalla stessa lista. Questo metodo presenta il vantaggio di ripristinare la numerosità campionaria iniziale, ma possono non essere eliminati gli effetti distorsivi sulle stime finali se la sub-popolazione dei rispondenti rappresentata dalle unità sostitutive hanno caratteristiche sistematicamente diverse da quelle dei non rispondenti.

Sempre nel caso di indagini campionarie, un metodo di correzione degli effetti della presenza di mancate risposte totali sulle stime finali consiste nell'estrarre un sub-campione casuale semplice dalla popolazione dei non rispondenti, e di procedere alla reintervista, mediante ritorni successivi, delle unità selezionate. In questo modo, ottenuta la stima relativa ai non rispondenti, è possibile ridurre la distorsione della stima finale. Questa tecnica è però raramente praticabile nel caso di indagini di tipo amministrativo, ed in ogni caso risulta essere piuttosto costosa in termini sia economici che organizzativi.

Imputazione

Se fra le esigenze dell'indagine c'è la costruzione di un archivio completo di informazioni, le mancate risposte totali possono essere sottoposte a imputazione analogamente alle mancate risposte parziali. Questo è possibile nel caso in cui siano disponibili le caratteristiche strutturali della popolazione investigata e informazioni ausiliarie affidabili. I metodi utilizzabili a questo scopo possono essere basati sull'uso di unità donatrici (così definite perché il valore della variabile relativo a questa unità è "donato" all'unità errata, quindi si utilizza il valore dell'unità donatrice per sostituire il valore che risulta errato) oppure sull'adozione di modelli statistico - matematici di varia natura.

Nel primo caso, le informazioni relative ad ogni unità totalmente non rispondente vengono ottenute mediante duplicazione di una unità rispondente donatrice, scelta secondo un prefissato criterio casuale fra un insieme di unità donatrici candidate. Le unità donatrici candidate sono generalmente ottenute classificando tutti i possibili donatori sulla base di variabili ausiliarie, note per tutte le unità rispondenti, che si suppone discriminino fra diversi modelli di risposta. È evidente che il rapporto tra queste variabili ausiliarie ed il modello di risposta vanno verificate, così come va verificata l'indipendenza del meccanismo aleatorio di riposta dal livello delle variabili ausiliarie utilizzate.

Nel caso di imputazione mediante modelli vengono utilizzati generalmente modelli deterministici in cui si assume una dipendenza di tipo lineare fra un sottoinsieme di variabili di interesse ed un insieme di variabili esplicative. Le funzioni che esprimono tale dipendenza sono generalmente a loro volta dipendenti da un insieme di parametri, che devono essere stimati sulla base delle informazioni fornite dalle unità rispondenti.

Riponderazione

Quando le informazioni relative ad alcune unità statistiche risultano completamente mancanti e non è possibile o non si ritiene opportuno procedere alla loro integrazione, è necessario tenere conto di questa assenza di informazione a livello di stima finale: ciò può essere fatto incrementando il valore dei pesi campionari di unità rispondenti considerate rappresentative di quelle non rispondenti. È chiaro che l'assunzione alla base di questo approccio è piuttosto critica, in quanto si assume una omogeneità di probabilità di risposta fra rispondenti e non rispondenti non sempre accettabile, e che dovrebbe essere in ogni caso sempre accuratamente verificata.

Fra le tecniche di riponderazione più diffuse ricordiamo il metodo geografico e il metodo della ponderazione vincolata.

Il primo metodo consiste nel far rappresentare le unità non rispondenti da unità appartenenti a classi territoriali contigue, e viene spesso usato in combinazione col criterio dell'aggregazione degli strati, consistente appunto nell'integrazione fra strati in cui si verifica un completa caduta delle unità campione e strati contigui che ne diventano così rappresentativi. Il vantaggio di questo metodo è il fatto che la somma dei pesi modificati coincide col totale delle unità della popolazione. Il principale svantaggio è legato alla non correttezza generale delle stime finali: tali stime risultano infatti non distorte solo nel caso in cui il fattore correttivo applicato ai pesi iniziali sia il reciproco della probabilità di risposta delle unità rispondenti.

Il secondo metodo può essere adottato per tutte quelle indagini per le quali si dispone di totali noti sulla popolazione oggetto di indagine, ottenuti o da fonti esterne oppure sulla base dell'archivio da cui il campione di unità statistiche è stato selezionato. Questo metodo consiste nel calcolare i fattori correttivi per i pesi campionari in modo tale che siano rispettati i vincoli di uguaglianza fra i totali noti e le rispettive stime campionarie. Gli stimatori utilizzati per il calcolo di queste stime, detti stimatori di ponderazione vincolata, consentono in generale di attenuare gli effetti distorsivi dovuti alla presenza di mancate risposte totali.

Il metodo della ponderazione vincolata e, in generale, tutti i metodi di riponderazione in presenza di mancate risposte totali, presuppongono la specificazione di modelli probabilistici di interpretazione della mancata risposta totale, o modelli di mancata risposta. Questi modelli vengono utilizzati, in presenza di mancate risposte totali, per la stima delle probabilità di risposta delle unità campionarie, se queste probabilità sono incognite.

La maggior parte dei modelli di mancata risposta fanno uso, oltre che delle informazioni fornite dai rispondenti, di informazioni ausiliarie, che possono consistere in dati sui non-rispondenti ottenibili o dalle liste di selezione del campione, oppure da fonti esterne all'indagine che descrivono alcune caratteristiche dei non rispondenti.

Procedure di controllo e correzione

Dopo aver definito il piano di incompatibilità, l'insieme cioè delle regole che permettono di individuare, ed eventualmente correggere, gli errori all'interno dei dati, è necessario definire le modalità di applicazione di tali regole ai dati stessi.

Facciamo una prima distinzione tra le seguenti fasi:

Ognuna delle fasi citate può essere effettuata in modo manuale, interattivo, automatico o misto. Le modalità manuale e interattiva presuppongono l'intervento umano per ogni tipo di decisione, quella automatica prevede la totale delega al computer di tali decisioni, mentre quella mista fa ricorso sia all'intervento umano che a quello della macchina. La differenza tra manuale ed interattiva è data dalla diversa modalità di utilizzo del computer da parte dell'operatore umano: nel primo caso il processo decisionale è totalmente indipendente dall'elaboratore, mentre nel secondo caso si determina attraverso una continua interazione tra uomo e macchina.

La fase di individuazione delle situazioni di errore, solitamente, è compiuta in modo automatico, in quanto non vi sono particolari decisioni da prendere: si tratta solo di verificare se un record presenta mancate risposte parziali, valori fuori dominio o dà luogo o meno a incompatibilità. Per quanto riguarda invece le altre fasi, le decisioni da prendere sono estremamente delicate, in quanto, se non eseguite correttamente, possono portare non alla correzione degli errori presenti, ma addirittura all'introduzione di nuovi, e, in ultima analisi, allo stravolgimento della distribuzione originale. In merito all'adozione della modalità interattiva od automatica giocano considerazioni relative alle conseguenze sulla qualità finale dei dati e sui costi in termini di risorse e di tempi necessari. Mentre per quanto riguarda quest'ultimo elemento è innegabile che la soluzione automatica risulta essere sempre vantaggiosa, non altrettanto si può dire riguardo la qualità: sotto questo aspetto, è decisiva la valutazione delle tecniche e degli algoritmi utilizzati nell'uno e nell'altro caso.

Validazione delle procedure di controllo e correzione

Una procedura di controllo dei dati e di correzione degli errori, sia di tipo interattivo, che automatico, che mista, deve essere sottoposta a validazione. Per "validazione" si intende il processo attraverso il quale si valuta se l'informazione può essere considerata consona alle finalità per le quali è stata prodotta. L'attività di validazione può dunque essere definita come l'insieme delle operazioni attraverso le quali si giudica lo scarto esistente tra gli obiettivi di qualità programmati in sede di progettazione dell'indagine statistica o amministrativa e i risultati effettivamente conseguiti.

Da questa definizione deriva che gli obiettivi di qualità devono essere prefissati in fase di progettazione e devono essere espressi in termini misurabili. Inoltre, si dovranno predisporre le procedure adatte alla misurazione dei parametri di qualità sui dati effettivamente raccolti affinché si possa valutare il conseguimento degli obiettivi. Anche se la validazione può riguardare tutte le caratteristiche che definiscono le dimensioni della qualità per i dati statistici, in questo ambito si farà riferimento maggiormente all'accuratezza, poiché questa è la più complessa da valutare autonomamente per gli utenti.

Gli obiettivi dell'operazione di validazione sono duplici: valutare se la qualità dei dati è sufficiente ai fini della diffusione dell'informazione agli utenti; identificare le fonti di errore più rilevanti e predisporre modifiche al processo di produzione in modo da ridurre gli effetti degli errori in successive occasioni di indagine.

La natura e l'intensità delle analisi eseguite nei due casi sono diverse. Nel primo, l'esigenza di tempestività impone di condurre analisi rapide e tali da escludere che i dati, per i quali si è già sostenuto un costo di produzione, introducano nel sistema di statistiche già disponibili elementi di confusione piuttosto che nuova informazione. Nel secondo caso, invece, il maggiore tempo a disposizione e l'esigenza di applicare considerazioni di costo/beneficio a dati di futura produzione fanno in modo che le procedure di validazione possano essere più ambiziose e finalizzate alla valutazione di quanto incidono altre fonti di errore sull'accuratezza dei dati.

Queste considerazioni portano ad elencare in quattro punti le principali misure di validazione:

  1. facilitare le valutazioni dell'utente documentando adeguatamente gli obiettivi di qualità, le definizioni adottate e i processi predisposti: questa azione si fonda sull'importanza che la trasparenza assume per l'utente nel momento in cui deve valutare la personale utilità dei dati statistici in cui entra in possesso. Infatti, per diverse delle dimensioni della qualità si è visto che è l'utente stesso a poter valutare se i dati possono essere considerati validi ai propri fini. Inoltre la conoscenza delle caratteristiche assunte dal processo di produzione permettono molte valutazioni, anche se di carattere qualitativo, sulle possibilità di interpretazione dell'informazione disponibile. A questo fine, uno strumento utile per documentare l'indagine nei suoi aspetti definitori ed operativi è la lista di verifica. Tramite questo strumento la documentazione di indagini statistiche o amministrative può essere, dove possibile, resa omogenea in modo da facilitare i confronti.
  2. condurre studi di coerenza tra i dati prodotti e il sistema di informazione disponibile: questo genere di intervento costituisce la principale forma di azione di validazione effettuata a scopo di diffusione. Tende ad escludere che l'informazione prodotta riveli problemi di qualità attraverso il confronto con il sistema delle statistiche già disponibili. Ma non ha lo scopo di identificare quali sono le cause e l'identità degli errori dovendo solo valutare se gli errori non superano dei limiti tali da pregiudicare la pubblicazione dei dati. Possono essere effettuate valutazioni di coerenza interna dei dati mediante il calcolo di numeri indici di riconosciuta stabilità utilizzando stime di quantità prodotte nel contesto dell'indagine. Inoltre, le statistiche prodotte possono essere confrontate con quelle ottenute in precedenti occasioni e riferite al passato oppure con stime provenienti da fonti indipendenti. In entrambi casi deve essere posta particolare attenzione agli elementi di variabilità introdotti nei confronti dalle differenti definizioni e condizioni operative adottate nell'ambito delle fonti considerate.
  3. stimare le principali componenti del profilo dell'errore per mezzo di apposite misurazioni della qualità e di indagini di controllo: si tratta dell'approccio più costoso alla validazione sia in termini di risorse richieste sia per difficoltà di progettazione ed implementazione dei controlli. Tuttavia, permette una valutazione diretta della qualità del prodotto informazione attraverso una stima diretta delle componenti del profilo dell'errore. L'approccio considerato consiste nel procurarsi, di solito mediante indagini ad hoc riguardanti specifiche fonti d'errore, informazione ausiliaria appositamente predisposta per la stime di specifiche componenti dell'errore totale. Per esempio, nel caso si voglia indagare la variabilità indotta nella stima di interesse dall'errore commesso dai rispondenti nel fornire l'informazione ad essi richiesta, è possibile progettare una reintervista su un campione di rispondenti nella quale si ripetono le domande, per poter analizzare le variazioni nelle risposte fornite da uno stesso individuo in due diverse occasioni. Dal momento che questo genere di studi è costoso e complesso, la loro conduzione avrà necessariamente un carattere episodico e riguarderà analisi molto specifiche sulle fonti di errore che si ritengono più rilevanti.
  4. calcolare indicatori di qualità di processo finalizzati alla stima indiretta della qualità dei dati: in alternativa alla stima diretta delle componenti dell'errore totale, si può ricorrere ad una soluzione di tipo più economico: la definizione e il calcolo di indicatori di qualità del processo. Questo approccio mira ad ottenere delle misure la cui variazione è associata alla presenza di errori provenienti da specifiche fonti accontentandosi di effettuare stime indirette. Allo svantaggio di non quantificare direttamente l'azione dell'errore sulle stime prodotte, si contrappongono utili vantaggi costituiti dal minor costo di produzione dei dati e programmare interventi correttivi nel caso gli indicatori segnalino problemi in qualche fase del processo di produzione. Per approfondimenti sugli indicatori di qualità di processo si può fare riferimento a [Fortini, (1998); Brancato e altri, (2000)].

Tempi e costi

La programmazione dei tempi e dei costi di esecuzione dell'indagine è un fattore critico per la riuscita dell'indagine stessa. Queste variabili, infatti, oltre ad influenzarsi reciprocamente, sono fortemente connesse alla qualità dell'informazione prodotta.

Nella pratica, l'elemento di costo viene visto come un vincolo al quale la progettazione deve sottostare senza tenere conto, in molti casi, del livello di errori che risorse carenti possono indurre nelle operazioni programmate se, infatti, una disponibilità illimitata di risorse può indurre a sprechi non sostenibili, un impegno di costo troppo limitato può portare al fallimento degli obiettivi dell'indagine con perdite anche maggiori.

In questo contesto bisogna inserire anche i tempi di esecuzione dell'indagine, tenendo conto della necessità di disporre di dati utilizzabili in un momento il più prossimo possibile a quello di riferimento dell'informazione raccolta (la tempestività come visto in precedenza). La domanda di tempestività può essere indotta sia dall'urgenza dell'informazione, per esempio allo scopo di prendere decisioni strategiche, sia da una rapidità di mutamento del fenomeno osservato, tale da ridurre l'obsolescenza dell'informazione prodotta.

Anche la tempestività può essere messa in relazione con il costo sostenuto e la qualità dei dati prodotti. È infatti lecito chiedersi se, al prezzo di un maggiore impiego di risorse, si possa anticipare la diffusione a parità di qualità o viceversa, tenendo fisse le risorse impiegate si possa aumentare la qualità dei dati prodotti, posticipando i tempi di produzione. Per esempio, si può ritenere che, aumentando il numero di rilevatori in una intervista si possa comprimere il tempo di rilevazione, oppure la qualità dell'informazione prodotta potrebbe essere migliorata conducendo analisi supplementari sui dati al prezzo di un aumento dei tempi di lavorazione. Oppure si potrebbe decidere di sopportare la diffusione dei dati a qualità inferiore, per far fronte all'urgenza di informazione, diffondendo dati preliminari ad indagine non ancora conclusa.

Per poter migliorare la pianificazione di tempi e costi d'indagine è necessario considerare le singole fasi operative e valutarne attentamente l'integrazione. Inoltre, occorre predisporre nel sistema dei controlli di qualità un adeguato monitoraggio delle risorse impiegate in ciascuna attività condotta e dei loro tempi di esecuzione, mettendo queste informazioni a confronto con gli altri indicatori di qualità prodotti.

Lavorare con dati di buona qualità permette di realizzare un sistema di data warehouse prossimo alla perfezione. Mettere insieme registrazioni di dati parziali o scartare record inconsistenti, scorretti o incompleti, è ciò che normalmente viene chiamato data scrubbing o cleaning o più genericamente pulizia dei dati. Pulizia dei dati significa far sì che, per esempio, due record differenti in una stessa anagrafica vengano ricondotti alla stessa persona o cliente. I dati così detti sporchi sono stati un problema fin da quando si è iniziato a raccogliere informazioni per poterle in seguito analizzare. Se nella raccolta d'informazioni ci sono dati sporchi, il prodotto di ogni analisi sarà conseguente. Il problema della pulizia dei dati è diventato più importante dal momento che sempre più aziende hanno messo in produzione sistemi decisionali basati su data warehouse, che operano unendo informazioni da fonti diverse. Senza una strategia per la qualità dei dati e degli strumenti per la loro pulizia, i responsabili incontrano molti rischi nel mettere insieme le informazioni provenienti da differenti database. Un dato errato potrebbe non essere un grande problema, ma la moltiplicazione di questo problema in migliaia o milioni di informazioni errate, duplicate o inconsistenti costituisce uno dei motivi di fallimento dei progetti di supporto decisionale. I processi di data quality devono eliminare non solo i semplici errori e le ridondanze. Devono rendere tra loro consistenti set di dati che sono stati creati in tempi diversi, seguendo differenti regole di raccolta o esigenze di business. Senza l'utilizzo di processi di 'pulizia' questi insiemi di dati non sono infatti utili quando vengono uniti in un warehouse, il cui scopo è quello di fornire la base per la business intelligence nei contesti aziendali più diversi. In passato (e talvolta ancora oggi), gran parte del lavoro di ripulitura dei dati poteva essere fatto 'a mano' dagli operatori. Il laborioso processo di ricerca e correzione per eliminare le informazioni scorrette, completare quelle parziali o cancellare quelle duplicate è molto costoso e inoltre comporta l'aggiunta di nuovi errori. Ma per questo esistono oggi degli strumenti specializzati che usano complessi algoritmi per analizzare, standardizzare, correggere e integrare le informazioni.

Link correlati


GNU Fdl - it.Wikipedia.org




Google | 

Enciclopedia |  La Divina Commedia di Dante |  Mappa | : A |  B |  C |  D |  E |  F |  G |  H |  I |  J |  K |  L |  M |  N |  O |  P |  Q |  R |  S |  T |  U |  V |  W |  X |  Y |  Z |